import requests
# coding:utf-8
from jieba import lcut #jieba分词
from collections import Counter #统计数量

def getKeywords(content):
    sentences = []
    #text = ''.join(sentences) #将列表中的每个成员以字符''分隔开再拼接成一个字符串
    #print(text)
    words = lcut(content) #分词
    #过滤分词后长度小于1的词语或标点符号，！！！！！！！！
    words = filter(lambda word: len(word) > 1, words)
    freq = Counter(words)  #统计次数
    res = freq.most_common(5)
    print(res)
    print(type(res)) #list

content = """
            阳光大男孩的林默，激活了王者最强老六心理阴暗系统。

林默表示，自己一个这么热心肠的阳光男孩，怎么会激活这种这么脏的系统。

开局系统就奖励的顶级兰陵王熟练度和理解。

作为一个温柔的男孩，热心情的大哥哥。

林默决定把兰陵王的温柔带给**的每一位中单玩家，呆射玩家。

随着林默的温柔在**传播。

一时间各大高分主播，和美女主播，纷纷都被感动坏了。

大仙：林默这个比，是真的脏啊！我都要哭了！妖怪呜呜。
          """
#getKeywords(content)



# baseurl = "http://news.whpu.edu.cn/info/1007/16975.htm"
# owner=1310939652 #不知道是什么。。。。一个编号
#
# def getView(baseurl, owner):
#     newNum = (baseurl.split("/")[-1]).split(".")[0] #16975
#     viewUrl = rf"http://news.whpu.edu.cn/system/resource/code/news/click/dynclicks.jsp?clickid={newNum}&owner={owner}&clicktype=wbnews"
#     print(viewUrl)
#     header = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"}
#     web_data = requests.get(url=viewUrl, headers = header)
#     view =int(web_data.text)
#     return view
#
# view = getView(baseurl,1310939652)
# print(view)

#一个有两种url类型
# datalist = []
# #第一种方法： in
# string = 'hellowor1ld'
# if 'world' in string:
#     print(1)
# else:
#     print(2)

# #获取url的id
# str = 'http://news.whpu.edu.cn/info/1002/17024.htm'
# str1=str.split('/')[-1].split('.')[0]
# print(str)
# print(str1)

datalist = [
[
'17176','xxyw','http://news.whpu.edu.cn/info/1002/17176.htm',
'校领导深入学工部（处）、团委调研指导工作','2022-04-06',44,
[('工作', 28), ('学生', 25), ('坚持', 11), ('大学生', 9), ('调研', 6)]
],

['17173', 'xxyw',
'http://news.whpu.edu.cn/info/1002/17173.htm',
'学校召开二届教代会四次会议提案交办会', '2022-04-05', 47,
[('提案', 20), ('办理', 14), ('工作', 11), ('学校', 5), ('会议', 4)]
]
]
#处理datalist列表里面所有的数据，返回sql语句的list集合
def getSql(dataList):
    sqlList = []
    for data in datalist:
        #index：列的下标  len(data)多少列
        for index in range(len(data)):
            #由于有的数据存入数据库需要的数据类型为str，使用需要转换
            if index==0: #id为str，需要转换为ind
                data[index] = int(data[index])
            #[('工作', 28), ('学生', 25), ('坚持', 11), ('大学生', 9), ('调研', 6)]
            if index==6: #关键字为list类型，里面是什么类型
                keywords = ""
                for key,value in data[index]: #key为str类型，value为int类型
                    keyword = key+':'+str(value) #str类型
                    keywords = keyword+' '+keywords #空格相隔
                data[index] = keywords #list成功变成字符串

        sql = "insert into newsInfo(id,type,url,title,day,views,keywords)values(%d,'%s','%s','%s','%s',%d,'%s')" % (data[0],data[1],data[2],data[3],data[4],data[5],data[6])
        sqlList.append(sql)

    return sqlList

sqlList = getSql(datalist)
for sql in sqlList:
    print(sql)








